[현장연결] '행정전산망 먹통' 발생원인·후속대책 발표<br /><br />정부가 지난주 지자체 행정망의 장애가 발생한 원인이 무엇인지 현재까지 확인된 내용에 대해서 발표합니다.<br /><br />후속 대책도 이야기 하는데요.<br /><br />현장 연결합니다.<br /><br />[송상효 / 지방행정전산서비스 개편 TF 공동팀장]<br /><br />안녕하십니까.<br /><br />지방행정 전산 서비스 개편 TF의 공동팀장을 맡고 있는 송상효 교수입니다.<br /><br />먼저 원인 분석반 구성 및 활동에 대해서 말씀드리도록 하겠습니다.<br /><br />원인 분석반은 총 29명으로 구성하였습니다.<br /><br />LG CNS, 네이버 클라우드, 소울시스템즈 등 외부 전문가 16명과 국가 정보 자원 관리원 통신 운영, 보안 부서의 소속 인력 13명으로 구성하였습니다.<br /><br />특히 외부 전문가 중 11명은 장애 발생 초기부터 복구에 참여한 인력들로 구성함으로써 업무 연속성을 확보할 수 있었습니다.<br /><br />이번 원인 분석에 한 가지 아쉬웠던 것은 장애 발생일 이후 이번 원인 분석 결과를 발표하기까지 기간이 국민께서 생각하신 시간보다 오래 걸렸다는 점입니다.<br /><br />이번 장애가 가지는 사안의 중요성 그리고 관련 시스템의 복잡성을 감안했을 때 종합적으로 검토할 필요가 있었고 충분한 검증을 통해 신중하게 결과를 설명할 필요가 있다는 점을 양해 부탁드립니다.<br /><br />원인 분석 결과에 대해서 말씀드리도록 하겠습니다.<br /><br />먼저 장애 당시 남겨진 로고를 분석한 결과 장애 원인이 네트워크 영역에서 발생하였을 확률이 높은 것으로 추정하였습니다.<br /><br />왜냐하면 비정상 상태가 통합 검증 서버의 네트워크 세션에서 확인되고 네트워크 장비 중의 하나인 L4 장비의 OS 업데이트가 전일 있었으며 L4 장비에서 비정상 상태로 전환되는 로그가 다수 반복되는 것을 확인되었기 때문입니다.<br /><br />이와 더불어 네트워크 영역에서 문제가 나타났다 하더라도 앞뒤로 연결된 장비나 시스템이 영향을 미쳤을 수도 있습니다.<br /><br />그렇기 때문에 원인 분석반은 네트워크 장비뿐 아니라 서버 로그까지 분석 대상에 포함시켰으며 이로 충분한 검토와 테스트를 진행하였습니다.<br /><br />한편 해킹에 대해서도 모든 가능성을 열어놓고 외부에서의 공격 내부에 심어놓은 스파이웨어 등 다양한 상황을 가정하여 보안 당국과 함께 확인하였습니다.<br /><br />최근 해외에서 나라장터 시스템에 집중 접속하여 일시적인 과부하로 인한 일부 장애가 발생했었었는데 이후 보안당국과 함께 전체 시스템에 대해 다시 한번 점검을 실시하였습니다.<br /><br />현재까지는 해킹 징후가 보이지 않았습니다만 앞으로도 해킹에 대해서 유의하여 관리하도록 하겠습니다.<br /><br />다음은 장애를 일으킨 원인입니다.<br /><br />네트워크 장비를 대상으로 하는 성능 측면 점검의 경우에는 구간을 나누어 반복적인 부하 테스트를 진행하였고 장애 및 접속 지연이 발생한 영역을 확인하며 장애 유발의 원인을 좁혀나가는 방식을 사용하였습니다.<br /><br />이와 같은 분석을 반복하여 수행한 결과 네트워크 장비인 라우터에서 패킷을 전송할 때 용량이 큰 패킷이 유실되는 현상을 관찰하게 되었는데 특히 1500바이트 이상의 패킷은 90%가 유실되었습니다.<br /><br />이 현상의 원인은 라우터 장비의 케이프를 연결하는 모듈에 있는 포트의 일부가 이상이 있었기 때문입니다.<br /><br />이렇게 패킷이 유실됨으로써 통합 검증 서버는 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없게 되었고 지연이 중첩되어 작업을 정상적으로 수행할 수 없는 상황에 이르게 된 것입니다.<br /><br />이는 로그에서도 확인할 수 있었습니다.<br /><br />이해를 돕기 위해 네트워크 구성도를 이용해 부연 설명을 드리도록 하겠습니다.<br /><br />네트워크 구성도는 오른쪽에 있습니다.<br /><br />이쪽에 있고요.<br /><br />일단 국가정보원 관리원은 11월 18일 04시에 정상 작동하지 않았던 L4 장비를 고성능 장비로 교체하였고 교체한 상태에서 기능 및 부하 테스트를 통해 안정성을 점검한 후 정부24 서비스를 오전 9시에 재개하였습니다.<br /><br />그러나 트래픽이 많지 않은 주말이라 서비스는 정상 작동하였지만 일부 기능의 지연 현상은 발견하게 되었습니다.<br /><br />지연이 발생한 기능들은 주로 광주센터에 위치한 여러 시스템과 연계된 것임을 확인하였고 대전센터의 라우터 중 광주센터와 연결된 부분을 상세히 분석한 결과 해당 포트에 불량이 발견되어 11월 19일에 7시에 다른 포트로 연결을 전환함으로써 해당 지연 현상을 해소하였습니다.<br /><br />이와 같은 작업에도 불구하고 위의 불량 외에 다른 오류가 있었을 가능성도 배제할 수 없어 서버에 발생한 로고를 분석하고 다양한 네트워크 구간에 장비의 이상을 검증하는 테스트 과정을 거쳤습니다.<br /><br />통합인증 서버가 존재하는 존에 함께 운영되는 서버는 물리 서버 150여 대, 소프트웨어는 각각 웹 서버 19식, 와스 서버 50식, DBMS 56식이 있었습니다.<br /><br />특히 통합인증 서버는 다수의 장비와 연계되어 서비스되고 있는 상황이라 검증 대상이 많았습니다.<br /><br />통합 인증 서버가 경유하는 네트워크 장비의 경우 같은 존 내에서만 라우터 장비 2대, 및 L4 장비 4대, 국가 정보 통신망 영역에 라우터 장비 8대가 있었습니다.<br /><br />이 구간에서 이상 유무를 확인하기 위해 각 장비에서 발생 장애 시점을 로그 수집하여 분석하였습니다.<br /><br />또한 앞서 설명드린 장애 및 접속 지연에 발생한 영역을 확인하며 장애 유발 원인을 좁혀나가는 위를 네트워크와 테스트의 경우 3차에 걸쳐 총 8회.<br /><br />1차 4회, 2차 2회, 3차 2회 수행하였습니다.<br /><br />원인 분석을 위해 수행한 부하 테스트의 시나리오는 다음과 같습니다.<br /><br />통합 인증 서버로의 트래픽 유입량을 변경하는 경우 L4 장비를 경호하지 않는 경우.<br /><br />캐핏 표기를 변경하는 경우, 서비스 사용자 수를 500명 또는 1500명 등으로 다양하게 변경하는 경우, 장비를 경유하는 네트워크 대역폭을 변경하는 등의 다양한 시나리오 상황에서 네트워크 영역에서의 접속 지연 및 이상 유무를 확인하였습니다.<br /><br />이와 같이 확인 과정을 거쳤으나 앞에 말씀드린 라우터 장비의 불량 이외에는 다른 이상 현상을 발견할 수는 없었습니다.<br /><br />확인된 사실을 신속히 발표했어야 하나 결과에 대한 신뢰를 높이기 위해서 명확한 검증 과정이 필요하였고 이에 따라 상당한 시간이 소요되었습니다.<br /><br />참고로 지금까지 설명드린 결과에 대한 제 확신을 가지기 위해...